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摘要 : 随 着 射电 干涉 技术 的 不 断 提 升 ， 干 涉 阵 列 规模 越 来 越 大 ， 观 测 能 力 逐 渐 增强 ， 但 
随 之 而 来 的 是 超大 数据 的 实时 处 理 问题 。 针 对 该 问题 ， 结 合 射 电 干 涉 仪 相 关 器 在 数据 运算 和 
传输 等 方面 的 需求 以 及 射电 干涉 阵列 信号 的 特征 ， 研制 了 一 套 基于 图 形 处 理 器 集群 的 通用 相 
关 器 并 用 于 “天 车 计 划 ” 的 数据 处 理 : 首先 根据 射电 信号 的 关联 计算 特性 ， 按 频段 将 计算 任 
m 务 分 配 到 不 同 图 形 处 理 器 节点 ， 并 合理 均衡 各 节点 网 络 负载 ; 然后 由 不 同 图 形 处 理 器 节点 独 
` 立 完成 各 自 的 计算 任务 并 将 计算 结果 实时 送 往 存储 节点 ; 最 后 按 图 形 处 理 器 集群 通用 相关 器 
的 设计 方案 成 功 安装 部 署 系统 并 根据 “天 襄 计 划 ” 一 期 的 需求 进行 了 性 能 测试 。 该 图 形 处 理 
c 器 集群 相关 器 计算 性 能 约 为 理论 峰值 性 能 的 4690, 相对 于 传统 方案 的 相关 器 ， 基 于 图 形 处 
理 器 集群 的 相关 器 具有 开发 周期 短 、 可 扩展 性 强 、 部 署 简单 等 优势 。 
关键 词 : 射电 干涉 仪 ; 图 形 处 理 器 相关 器 ; 图 形 处 理 器 集群 ; 数据 实时 处 理 ; 分 频 式 计算 
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时 间 序 列 信号 模 数 转化 、 干 涉 显 示 度 的 计算 和 校准 以 及 噪音 的 消除 和 天 图 的 傅 里 叶 重 构 是 射电 干 
涉 阵 信 号 处 理 的 主要 过 程 ， 其 中 干涉 显示 度 的 计算 是 最 关键 也 是 计算 量 最 大 的 部 分 ， 该 部 分 由 相关 器 
完成 ， 它 主要 包括 各 路 信号 的 傅 里 时 变换 (F-engine ) 和 交叉 互 关 联 (X-engine) 。 干 涉 显示 度 的 计算 量 
随 射电 干涉 阵 的 阵 元 数目 平方 的 增长 而 增长 " 。 目 前 国际 上 射电 于 涉 阵列 的 阵 元 个 数 已 达 数 百 乃 至 
数 千 ， 其 信号 的 实时 处 理 需求 已 趋 于 万 亿 次 每 秒 甚 至 亿 亿 次 每 秒 。 例 如 2013 年 投入 运行 的 “ 阿 塔 卡 
玛 训 米 / 亚 毫米 波 阵列 望远镜 ”(the Atacama Large Millimeter Array, ALMA), HA 66 面 天 线 ; 我 国 的 
“天 籁 计划 ”项 目 ' 引 ， 一 期 规模 达 96 个 双 极 化 阵 元 ， 现 已 基本 组 建 完 成 ， 二 期 计划 建 近 千 个 阵 元 ; E 
际 上 多 国 合作 正在 筹建 的 平方 千 米 阵列 望远镜 (Square Kilometer Array，SKA) 第 一 期 将 包括 由 约 200 个 碟 
形 天 线 组 成 的 中 频 阵 以 及 由 约 50 个 基站 、13 万 个 阵子 天 线 组 成 。 如 此 大 规模 的 天 线 阵 列 ， 对 数据 采集 、 
传输 以 及 实时 处 理 都 将 带 来 巨大 的 挑战 ， 如 何 应 对 这 些 挑战 是 国际 上 目前 关注 的 一 个 难题 。 

为 了 解决 干涉 阵 数据 实时 处 理 问题 ， 传 统 方案 采用 硬件 专用 集成 电路 ( Application Specific Integrated 
Circuit, ASIC) 或 现场 可 编程 门 阵 列 (Feld-Programmable Gate Array, FPGA ) 设 备 进 行 射 电信 号 的 交叉 关 
HK, 通常 这 种 方式 开发 周期 长 、 可 扩展 性 差 、 部 署 困难 旦 费用 高 。 针 对 天 籁 实验 干涉 阵 研发 了 一 套 具 备 
开发 周期 短 、 可 扩展 性 强 、 部 署 简单 和 费用 低廉 等 优势 的 通用 相关 器 ， 基 于 图 形 处 理 右 集群 设计 了 一 
套 解决 方案 。 图 形 处 理 需 不 仅 具备 高 性 能 和 高 质量 的 图 形 处 理 能 力 ， 同 时 更 具有 杰出 的 浮 点 计算 能 
以 及 极 高 的 存储 器 带宽 ， 这 些 特性 使 得 图 形 处 理 器 在 射电 干涉 仪 相 关 器 的 研发 上 具有 极 大 的 潜力 。 

本 文 介 绍 了 采用 图 形 处 理 需 统一 设备 计算 架构 ( Compute Unified Device Architecture, CUDA ) 设计 
软件 模型 并 结合 硬件 完成 的 相关 需 的 开发 。 软 件 设 计 相 对 硬件 设计 而 言 有 开发 周期 短 、 可 扩展 性 强 、 
部 署 简单 和 费用 低廉 等 优势 ， 因 此 使 用 软件 实现 射电 信和 号 的 交叉 关联 替代 硬件 实现 是 一 个 很 有 价值 的 


x 基金 项 目 : 国家 自然 科学 基金 (U1231123, 11503012, U1331202, U1431108) ; 863 科技 攻关 计划 (2012AA121701) 资助 
收 稿 日 期 : 2015-12-28; 修订 日 期 2016-01-22 
作者 简介 : 汪 群 雄 ， 男 ， 硕 士 研 究 生 . 研究 方向 : 高 性 能 计算 . Email; 1276303919@ qq.com 


chinaXiv:201711.01090v1 


ChinaXiv 合 作 期 刊 


220 X 文 研究 与 技术 13 卷 


解决 方案 。 在 面 对 未 来 更 大 规模 射电 望远镜 的 实时 信号 处 理 时 ， 该 相关 器 只 需 修改 相应 参数 便 可 实现 
灵活 扩展 ， 通 用 性 强 。 在 之 前 的 实验 中 ， 对 单 图 形 处 理 顺 的 计算 性 能 进行 了 测试 ,证实 了 图 形 处 
理 需 的 强大 潜能 ， 但 随 着 阵 元 数目 的 增加 ， 单 图 形 处 理 需 很 难 满足 干涉 阵 数 据 计 算 的 实际 需求 ， 因 此 
需 设计 图 形 处 理 带 集群 下 的 交叉 关联 算法 ， 通 过 图 形 人 处理 絮 集 群 强大 的 数据 处 理 能 力 来 弥补 单 图 形 处 
Tidi JA AE. 


1 基于 图 形 处 理 器 集群 的 相关 器 设计 


针对 射电 干涉 阵 采 集 的 密集 型 观测 数据 ， 图 形 处 理 器 集群 相关 器 在 数据 实时 处 理 过 程 中 存在 两 个 
关键 性 问题 : (1) 数 据 的 合理 分 发 与 调度 ; (2) 集群 节点 运算 性 能 的 优化 。 当 数据 分 发 调度 出 现 问题 
时 ， 势 必 会 导致 各 节点 的 负载 不 均衡 ， 影 响 各 节点 的 运算 性 能 ; 反之， 节点 运算 性 能 不 佳 ， 也 会 影响 数 
据 的 整体 调度 。 二 者 相互 依赖 ， 相 互 制约 。 图 形 处 理 需 集群 相关 顺 的 架构 设计 需要 同时 碌 顾 这 两 个 核 
心 问题 ， 才 能 使 集群 相关 器 整体 性 能 达到 最 佳 。 为 解决 第 一 个 问题 ， 采 用 了 分 频 分 布 式 计算 的 信号 处 
理 模 式 并 借鉴 CASPER (美国 Berkeley 一 家 天 文 信号 处 理 与 电子 研究 合作 组 织 ) 的 相关 器 技术 了 ， 实 现 
数据 和 任务 的 分 发 与 调度 ; 针对 第 二 个 问题 ， 在 之 前 的 实验 中 已 经 尝试 了 多 种 图 形 处 理 带 优化 方法 。 
1.1 图 形 处 理 器 相关 器 的 整体 架构 设计 

由 于 先 做 传 里 叶 变 换 会 将 时 域 信号 变 成 频 域 信号 ， 再 做 交叉 关联 时 ， 不 同 频率 之 间 的 相关 为 0， 
所 以 只 需要 做 同 频率 关联 2， 故 而 FX 方式 较 XF 方式 计算 复杂 度 小 ， 所 以 设计 FX 相关 器 做 数据 的 实 
时 处 理 。 图 1 是 图 形 处 理 器 集群 相关 器 的 整体 设计 框架 。 


F-engine 模块 X-engine 模块 


图 1 图 形 处 理 器 集群 相关 器 框架 图 


Fig. 1 The architecture of the CPU-cluster-based correlator 


XIE ARAA CASPER 研究 组 开发 的 具有 开放 式 可 重 构架 构 的 ROACH 服务 器 ， 如 
图 1, F-engine 模块 运行 在 ROACH 服务 器 节点 上 ， 主 要 通过 ROACH 板 (由 CASPER 研制 的 一 种 现场 
可 编程 门 阵列 处 理 板 ) 做 数据 采样 及 快速 傅 里 叶 变换 等 相关 操作 ， 本 文 着 重 讲述 X-engine 模块 的 设计 
实现 ，X-engine 模块 在 图 形 人 处理 器 服务 器 上 运行 ， 该 部 分 主要 负责 数据 的 交叉 关联 并 输出 结果 。 连 接 
F-engine 模块 与 X-engine 模块 的 是 网 络 交 换 机 。 通 过 交换 机 实现 数据 的 合理 分 发 与 调度 。 

假设 图 形 处 理 右 集群 相关 兢 F-engine 模块 含有 M ROACH 服务 需 节 点 ，X-engine 模块 用 个 图 
形 处 理 器 服务 器 节点 ; 并 且 每 个 ROACH 节点 对 应 六 个 天 线 的 数据 采样 ， 经 过 快速 傅 里 叶 变 换 后 ， 则 
对 应 m Fei; 每 路 信号 有 下 个 频 点 ， 则 每 个 图 形 处 理 器 节点 对 应 于 FAN 个 频 点 ， 每 个 频 点 所 


(D Collaboration for astronomy signal processing and electronics research, https ;//casper.berkeley.edu/wiki/PAPER, Correlator Manifest 
©® Radio astronomy tutorial. Internet, http ;//www.haystack.mit.edu/edu/undergrad/materials/ RA, tutorial. html 
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HM * m 路 信号 的 交叉 关联 计算 。 即 将 每 路 信号 作 快速 依 里 叶 变 换 处 理 后 的 下 个 频 点 按 前 后 顺序 分 
ANE, BRA FIN 个 连续 频 点 ， 其 中 ， 每 个 图 形 处 理 带 节点 负责 某 个 固定 频段 的 数据 关联 计算 ， 
所 以 每 个 ROACH 节点 需要 将 某 特 定 频段 通过 交换 机 送 往 对 应 的 图 形 处 理 顺 节点 ; 而 在 图 形 处 理 絮 节 
点 内 部 ， 根 据 其 拥有 的 图 形 处 理 带 计算 核心 个 数 n， 再 一 次 将 频 点 均匀 地 分 为 n 段 交 由 nn 个 图 形 处 理 
器 核心 做 关联 计算 。X-engine 模块 的 详细 结构 见 1. 3 节 。 
1.2. 分 频 分 布 式 计算 模式 

根据 干涉 阵 数据 交叉 关联 过 程 按 同 频 相 关 的 特性 (不 同 频率 的 相关 性 为 0) ， 采 用 分 频 分 布 式 处 理 
方案 。 该 方案 具体 操作 : 不 同 频段 的 相关 计算 被 分 配 到 不 同 的 节点 上 。 假 设 共有 六 个 频率 ， 分 别 被 
分 配 在 N 个 单元 上 计算 。 其 中 ，! 单元 负责 计算 所 有 天 线 馈 源 对 之 间 频 率 1 的 干涉 显示 度 ， 因 此 余下 
N-1 个 单元 都 将 频率 1 的 数据 发 送 到 1 单元 ; 2 单元 负责 计算 所 有 馈 源 对 之 间 频 率 2 的 干涉 显示 度 ， 
MER N-1 单元 都 将 频率 2 的 数据 发 送 到 2 单元 ; 依 此 类 推 。 这 样 ， 每 个 单元 得 到 且 仅 得 到 它 负 责 计 
算 的 那个 频率 的 所 有 数据 。 假 定 每 个 单元 的 数据 采集 速度 为 及， 由 于 共有 w 个 频率 ， 因 此 从 其 它 每 个 单 
元 得 到 数据 的 速率 为 BLN( 这 里 略 去 了 数据 打包 时 头 文件 的 数据 量 ) ， 共 有 N 个 节点 ， 因 此 从 其 它 节 点 
得 到 的 总 数据 流量 为 B(N-1)AN。 同 样 ， 从 该 单元 传 给 其 它 单元 的 数据 流 也 是 这 么 多 。 如 图 2。 


图 2 分 频 分 布 式 计算 架构 
Fig.2 The architecture of distributed computing 


图 2 中 ， 频 率 个 数 与 计算 单元 数 相 等 ， 这 只 是 为 了 方便 画图 说 明 ; 在 实际 情况 中 ， 二 者 通常 并 不 
会 相等 ， 即 存在 一 个 单元 负责 多 个 频 点 数据 相关 计算 的 人 情况， 这样 才能 充分 体现 分 频 分 布 式 计算 模式 
的 优点 ， 大 大 降低 数据 的 传输 压力 和 数据 交换 的 复杂 度 " 。 

1.3 ”集群 环境 下 X-engine 模块 设计 

由 于 在 相关 器 数据 处 理 时 ， 大 部 分 的 计算 量 集 中 在 X-engine 模块 ， 所 以 下 面 重点 介绍 该 图 形 处 
理 器 集群 相关 器 的 X-engine 模块 的 详细 设计 结构 (图 3) 。 

在 图 3 中 ,图形 处 理 器 节点 之 间 构 成 分 布 式 ， 即 将 实际 的 频 点 计算 任务 按 频段 均衡 地 分 发 到 所 有 
节点 上 进行 计算 ; 各 计算 节点 采用 中 央 处 理 器 + 图 形 处 理 器 主 从 结构 ， 即 是 节点 内 异 构 式 。 中 央 人 处 理 
器 负责 与 当前 节点 进行 交互 ， 收 发 命令 和 数据 ， 并 控制 图 形 处 理 器 进行 计算 ， 中 央 处 理 器 单元 和 图 形 
处 理 器 单元 内 部 共享 内 存 空间 和 显存 空间 ， 采 用 内 存 统一 寻 址 [9 。 

X-engine 模块 采用 CUDA C 语言 实现 ， 主体 程 序 分 为 串 行 部 分 和 并 行 部 分 ， 并 行 部 分 又 分 为 集群 
节点 间 并 行 和 节点 内 线程 间 的 并 行 。 串 行 部 分 由 中 央 处 理 器 执行 ; 到 并 行 部 分 ， 将 任务 初步 分 配 到 各 
图 形 处 理 吉 节点 ， 在 节点 内 再 对 任务 进一步 划分 ， 并 将 划分 好 的 任务 送 到 协 处 理 器 图 形 处 理 器 上 进行 
计算 ; 在 图 形 处 理 器 完成 并 行 计算 任务 后 ， 将 结果 由 图 形 处 理 器 拷贝 到 内 存 ， 并 由 中 央 处 理 器 输出 到 
指定 的 后 端 存 储 设备 ， 至 此 ， 一 个 积分 时 间 内 的 所 有 数据 传输 与 计算 任务 完成 。 

1.4 相关 器 数据 分 发 与 调度 
CASPER 在 相关 器 实现 过 程 中 ， 并 未 将 F-engine 和 X-engine 两 部 分 集中 在 一 个 模块 ， 而 是 将 其 分 
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开 实 现 并 采用 网 络 交换 机 将 二 者 连接 ， 主 体 架 构 类 似 文 中 图 1; 这 样 ， 根 据 各 部 分 的 实际 计算 能 力 以 
及 传输 速率 便 可 以 合理 地 进行 数据 的 分 发 与 调度 。 相 关 器 设计 也 采用 了 这 一 方案 ， 从 而 实现 了 F- 
engine 和 X-engine 模块 的 分 离 ， 可 以 根据 实际 的 数据 计算 量 灵 活 地 增加 或 减少 任意 模块 中 计算 节点 的 
个 数 ， 有 效 增强 了 相关 器 的 可 扩展 性 ， 从 而 具备 较 强 的 通用 性 。 


GPU 节点 1 GPU 节点 2 ms GPU 节点 N 


设备 内 共享 式 


图 3 X-engine 模块 结构 


Fig.3 The structure of X-engine module 


2 图形 处 理 胡 集 群 相关 带 的 硬件 实现 


设计 了 一 套 基 于 图 形 处 理 器 集群 的 相关 器 ， 并 根据 “天 籁 计划 ”实际 的 计算 任务 予以 硬件 实现 。 
2.1 节点 设计 

根据 相关 器 的 构架 ， 实 现 该 相关 器 的 关键 在 于 确定 F-engine 模块 和 X-engine 模块 中 节点 的 个 数 。 
根据 计算 性 能 的 需求 ， 可 以 确定 图 形 处 理 器 节点 的 数量 。 首 先 ， 实 际 上 每 个 图 形 处 理 器 节点 具有 4 个 
图 形 处 理 器 计算 核心 ( 视 节 点 功 耗 、 主 板 搬 槽 、 空 间 等 情况 而 定 ) ; 经 过 反复 测试 ， 每 个 图 形 处 理 器 
计算 核心 的 实际 计算 性 能 约 为 1. 2TFLOPS (峰值 性 能 ) ， 所 以 每 个 图 形 处 理 器 节点 最 佳 计 算 性 能 是 
4. 8TFLOPS ,“ 天 籁 计划 ”一 期 规模 总 计算 量 为 35. 6TFLOPS/^, ， 则 X-engine 模块 至 少 需要 8 个 图 形 处 
理 屁 节点 才能 完成 计算 任务 。 对 于 FF-engine 模块 ， 由 于 F-engine 阶段 的 数据 计算 量 较 小 ， 故 只 需要 满 
足 数据 传输 要 求 即 可 。 

在 数据 传输 方面 ， 采 用 万 兆 网 卡 ， 为 了 确保 在 程序 运行 过 程 中 不 至 于 因 网 络 传输 满 负 荷 而 导致 数 
据 丢失 ， 测 试 时 的 平均 网 络 传输 速率 维持 在 0. 8 GB/s 左右 ; 程序 在 F-engine 传输 数据 之 前 需 对 原始 
信和 号 进行 截 位 操作 ， 将 10 位 的 原始 数据 截取 4 位 有 效 数据 ， 则 由 总 数据 输入 速率 可 知 ， 要 完整 地 接 
收 所 有 数据 ， 至 少 需要 24 块 万 兆 网 卡 。 实 际 上 ， 每 个 ROACH 服务 器 和 图 形 处 理 器 服务 器 上 均 插 有 4 
块 万 兆 网 卡 ; 即 按 照 数据 传输 要 求 ，F-engine 模块 和 X-engine 模块 至 少 分 别 需 要 6 ROACH 节点 和 
6 个 图 形 处 理 器 节点 。 

综合 数据 传输 以 及 计算 性 能 需求 考虑 ， 相 关 器 -engine 模块 的 节点 数量 应 为 6，X-engine 模块 的 
节点 数量 应 为 8。 
2.2 相关 器 各 模块 的 实现 

对 于 F-engine 模块 的 实现 ,在 此 只 作 简 要 说 明 。 相 关 估 -engine 模块 节点 个 数 为 6， 即 6 台 
ROACH 服务 器 ， 每 台 服 务 器 通过 ROACH 板 采 集 数 据 ， 经 过 截 位 、 快 速 傅 里 叶 变换 等 一 系列 处 理 后 ， 
由 4 个 万 兆 网 口 经 交换 机 送 往 X-engine 节点 。 
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X-engine 模块 需要 8 个 图 形 处 理 器 节点 ， 即 对 应 8 台 图 形 处 理 器 服务 器 ， 每 台 服 务 右 配置 4 个 图 


形 处 理 器 计算 核心 (2 块 GTX690， 每 块 2 个 计算 核心 )、4 个 万 焰 网 口 以 及 至 少 12 个 中 央 人 处理 器 核 
心 ; 每 个 图 形 处 理 器 核心 处 理 固 定 的 32 个 频 点 数据 ，4 个 图 形 处 理 器 核心 分 别 独 立 并 行 执行 。 除 基 
本 硬件 配置 外 ， 重 点 是 数据 处 理 的 软件 实现 。 图 4 是 图 形 处 理 器 节点 内 部 程序 实现 的 架构 ， 反 映 了 每 
个 图 形 处 理 器 节点 内 部 程序 实现 的 线程 、 缓 冲 区 以 及 数据 流向 (箭头 所 示 ) 之 间 的 关系 。 

从 图 4 可 以 了 解 到 X-engine 模块 中 各 图 形 处 理 器 节点 数据 处 理 的 软件 实现 框架 结构 ， 即 该 数据 处 
理 程序 由 4 个 主线 程 组 成 。 其 中 ， 网 络 线程 负责 接收 来 自 ROACH 服务 器 的 数据 并 将 其 按 频 点 先后 、 
天 线 顺 序 等 特定 要 求 重新 整合 ， 该 过 程 数 据 存放 在 图 形 处 理 吉 缓冲 区 内 。 图 形 处 理 器 缓冲 区 有 4 个 组 
冲 数据 块 ， 当 某 个 数据 块 满足 交叉 关联 的 要 求 ， 则 将 该 数据 块 拷贝 到 图 形 处 理 器 显存 然后 清空 该 数据 
块 所 占 内 存 空 间 ， 图 形 处 理 器 线程 负责 数据 的 交叉 关联 计算 ， 并 将 积分 结果 拷贝 到 中 央 处 理 器 缓冲 
区 ; 中 央 处 理 器 线程 则 负责 对 中 央 处 理 器 缓冲 区 内 的 数据 做 结构 调整 ， 并 将 最 后 结果 存放 在 硬盘 缓冲 
区 内 ; 硬盘 线程 专门 负责 将 最 后 的 计算 结果 送 到 后 端的 存储 设备 。 在 整个 过 程 中 ， 程 序 开辟 了 一 个 状 
态 变量 缓冲 区 ， 具 体 作 用 是 实时 获取 各 线程 以 及 缓冲 区 的 状态 信息 ， 通 过 读 取 并 显示 该 缓冲 区 的 变量 
便 可 实现 程序 运行 状态 的 实时 监控 。 


借鉴 CASPER 的 相关 髓 设计 ，X-engine 模块 在 数据 处 理 时 ， 对 输入 的 数据 包 有 特定 的 数据 结构 要 
2 求 ， 这 便于 后 续 的 数据 整合 处 理 。 图 5 是 X-engine 模块 图 形 处 理 器 节点 内 网 络 线程 要 求 输入 的 数据 包 
= 格式 。 
© psg pw FJ | Head | MCNT [|FID|XID| 
jm 缓冲 区 缓冲 区 缓冲 区 ch0 | inA | inB | inC [ inb [ inE | inF | inG | inH | 
- chl | inA | inB | inC | inD | ine | inF | inG | in | 


ch0 | inA | inB | inC | inD | inE | inF | inG LN 
chl | inA | inB | inC | inD | inE | inF | inG | inH 
tl anb : 
! ES | 


图 4 图 形 处 理 器 节点 内 部 程序 架构 图 5 网 络 数据 包 格式 
Fig.4 The program architecture within a CPU node Fig. 5 Network packet format 


由 图 5 可 知 ， 网 络 线程 接收 的 数据 包头 部 含有 3 个 参数 MCNT, FID 和 XID ， 分 别 表 示 当 前 包 序 
列 号 、 当 前 包 来 源 于 F-engine 模块 的 哪个 节点 以 及 当前 包 被 送 往 X-engine 模块 的 哪个 节点 。Payload 
部 分 是 具体 的 数据 信息 ，t0 、tl 等 表示 采样 次 数 ; ch0、chl 等 表示 信号 路 数 。 每 次 采样 中 ， 每 路 信号 
采集 8 条 频谱 ， 每 个 数据 包 大 小 (包含 的 采样 次 数 和 信号 路 数 ) 可 根据 实际 传输 情况 进行 适当 的 调整 。 
文中 实现 的 图 形 处 理 器 集群 相关 器 要 求 数据 包 大 小 (不 含 包头 部 大 小 ) 为 8 192 字 节 。 


3 图 形 处 理 需 集群 相关 天 的 性 能 测试 


3.1 相关 器 误差 分 析 及 正确 性 验证 

该 图 形 处 理 器 相关 器 的 误差 来 源 主 要 有 两 部 分 : (1) F-engine 模块 中 的 信号 采样 、 堆 位 等 过 程 ; 
(2)X-engine 模块 中 的 交叉 关联 过 程 。 对 于 (1) 过程 的 误差 另 文 说 明 ， 现 主要 分 析 (2 ) 过 程 的 误差 。X- 
engine 模块 中 的 交叉 关联 在 图 形 处 理 器 中 完成 ， 其 实质 是 浮 点 数 的 乘 累加 过 程 。 由 于 图 形 处 理 器 的 单 
精度 浮 点 数 计算 性 能 远 高 于 其 双 精 度 浮 点 的 计算 性 能 ， 为 充分 利用 这 一 优势 ， 程 序 要 求 输入 的 数据 采 
用 32 bit 的 单 精度 浮 点 数 类 型 ， 该 类 型 在 计算 机 中 的 二 进 制 存储 分 为 3 部 分 : 符号 位 (1 bit), 、 指 数位 
(8 bit) 以 及 尾数 位 (23 bit); 所 以 ,对 于 单个 结果 的 最 佳 精度 为 1x2“， 在 1x10” 到 1x10“ 之 间 ; 而 


ChinaXiv 合 作 期 刊 


224 X x 研究 与 技术 13 卷 


在 累加 过 程 ， 浮 点 数 加 法 运算 需要 进行 对 阶 和 右 规范 化 操作 ， 该 操作 会 进行 舍 入 处理 而 造成 误差 ， 误 
差 随 累加 过 程 不 断 积累 ， 为 尽量 消除 误差 ， 程 序 采用 分 组 相 加 方法 7] ， 最 后 经 过 整体 测试 ， 图 形 处 
理 器 程序 在 单 精度 浮 点 数 乘 累加 过 程 中 的 计算 结果 与 中 央 人 处 理 器 采用 双 精 度 的 计算 结果 的 最 大 误差 约 
X 1x10 EK., 
Jb), H TARRA ARES, AARAA RM A R nm. EAA 
路 延 时 检测 相干 相位 随 频率 的 变化 ， 并 与 理论 值 进行 比较 。 其 中 ， 相 位 随 频 率 变化 的 理论 值 开 为 
K-2mAT, (1) 
式 中 ，A7T 表示 时 间 延 迟 。 在 检测 试验 中 ， 加 入 的 时 延 为 AT=2.5x10“s， 所 以 相位 随 频率 变化 的 理 


论 值 K=1.571x107; 然而 ,根据 实际 观测 数据 拟 合 得 到 的 相位 随 频 率 变化 的 大 小 K~1.561x107。 
所 以 该 图 形 处 理 器 集群 相关 器 计算 结果 的 相位 随 频 率 变 化 率 与 理论 值 的 误差 AE 为 
IK-K| 

Koc 

由 (2) 式 可 以 得 出 ， 图 形 处 理 吉 集群 相关 器 相位 随 频率 变化 率 误 差 NE — 0. 006365 。 

Y 最 后 ， 将 干涉 阵 天 线 接收 的 信号 分 别 送 往 一 套 基 于 现场 可 编程 门 阵列 和 数字 信和 号 处 理 ( Digital 
Signal Processing, DSP ) 的 相关 器 (该 相关 器 由 中 科 院 自动 化 所 研制 ) 和 上 述 图 形 处 理 器 集群 相关 器 进 
行 计算 ， 对 二 者 的 计算 结果 进行 比较 。 如 图 6， 上 、 中 、 下 3 幅 图 分 别 是 实验 过 程 中 两 套 不 同 相关 器 
- 对 同一 段 信号 的 计算 结果 的 相位 图 以 及 二 者 的 相位 差 。 
- 将 图 6 的 上 面 两 幅 图 作对 比 不 难 发 现 ， 这 两 套 相 关 器 对 相同 信号 计算 结果 的 相位 图 几乎 完全 一 

致 ， 而 在 图 6 最 后 一 幅 相 位 差 图 中 ， 可 以 进一步 证 实 这 一 点 ， 二 者 的 相位 差 基 本 为 0， 图 中 有 些 非 零 
部 分 主要 由 于 噪声 所 致 。 
= 3.2 ”图形 处 理 器 相关 器 计算 性 能 及 传输 性 能 测试 

此 前 实验 中 ， 针 对 GTX460 和 GTX480 测试 了 不 同 天 线 情 况 下 数据 传输 的 速率 以 及 计算 性 能 。 下 
面 针对 该 图 形 处 理 需 相关 需 的 某 一 图 形 处 理 器 节点， 测试 GTX690 的 数据 传输 性 能 和 计算 性 能 ， 分 别 
如 网 7(a) (b). 

从 图 7 的 计算 性 能 曲线 图 可 以 看 出 ，GTX690 的 内 核 性 能 在 天 线 个 数 为 96 时 达到 最 高 ， 约 为 
c 1200GFLOPS， 该 性 能 约 占 理论 峰值 性 能 的 46%; 而 图 形 处 理 器 节点 的 整体 计算 性 能 随 天 线 个 数 递增 。 
e 从 数据 传输 速率 曲线 图 中 可 以 得 出 ， 对 于 图 形 处 理 器 节点 内 的 传输 速率 来 说 ， 其 主要 瓶颈 在 设备 与 主 
T 机 之 间 的 数据 传输 ， 即 是 PCI-E 的 传输 速率 限制 ， 这 与 前 期 实验 中 的 结论 一 致 ， 然而 ， 设 备 与 主机 间 
的 传输 限制 在 图 形 处 理 器 集群 中 并 非 唯一 的 问题 ， 因 为 从 网 络 传输 来 看 ， 每 个 图 形 处 理 器 节点 对 应 4 
个 万 兆 网 卡 ， 实 际 的 网 络 传输 速率 峰值 约 在 4 GB/s， 而 在 相关 器 具体 实现 中 ， 由 于 计算 需求 ， 图 形 
处 理 器 节点 对 接收 的 数据 需 先 做 移 位 操作 然后 才 找 贝 到 图 形 处 理 器 显存 进行 计算 ， 移 位 操作 将 原来 4 
位 数据 左 移 4 位 变 为 8 位 ， 相 当 于 网 络 传输 速率 峰值 变 为 8 GB/s, ， 而 这 个 网 络 峰 值 传输 速率 与 图 7 中 
测试 的 主机 设备 间 的 最 大 数据 传输 率 相当 ， 即 对 于 该 图 形 处 理 器 相关 器 而 言 ， 数 据 传输 受 限于 网 络 以 
及 图 形 处 理 器 节点 内 设备 与 主机 之 间 的 传输 (PCI-E 传输 速率 ) 。 

3.3 图 形 处 理 器 相关 器 其 它 性 能 

在 相关 器 的 诸多 性 能 中 ， 可 拓展 性 尤为 重要 。 基 于 传统 的 相关 器 ， 即 单纯 采用 人 硬件 ASIC 或 
FPGA 设备 来 进行 射电 信和 号 的 交叉 关联 运算 的 相关 器 ， 由 于 受 限 于 硬件 ， 其 计算 性 能 、 功 耗 等 基本 固 
定 ， 当 计算 量规 模 发 生变 化 ， 其 可 拓展 性 极 差 ， 而 基于 图 形 处 理 器 集群 的 相关 器 ， 通 过 软件 编程 实现 
相关 器 性 能 与 硬件 的 分 离 ， 不 再 完全 依赖 硬件 。 图 形 处 理 器 相关 器 可 以 根据 具体 的 计算 任务 做 相应 调 
整 。 例 如 ,“ 天 籁 计划 ”阵列 规模 从 一 期 的 96 面 天 线 扩建 到 约 2 000 面 天 线 ， 面 对 这 种 情况 ,传统 方 
案 只 能 重新 开发 一 套 针 对 扩建 后 计算 规模 的 相关 器 ; 但 是 ， 图 形 处 理 器 相关 器 只 需 根据 新 的 计算 任 
F, 适当 添加 F-engine 模块 和 X-engine 模块 的 节点 数量 即 可 ， 并 配备 足够 的 交换 机 。 
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Phase diagram of the Automation Research Institute correlator 
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图 6 自动 化 所 研制 的 相关 器 相位 图 (上 ); 图 形 处 理 器 相关 器 相位 图 (中 ); 相位 差 图 (下 ) 
Fig.6 The phase diagram of the correlator designed by the Automation Research Institute (top) ; The phase diagram of CPU 


correlator designed by our group (middle) ; The phase difference between the above two correlators ( bottom) 


RRIA REZA, HUE RBPESRHOS nee HA ERE JL BLEU PEPE , EDIT [65677 REAA 
关 带 ， 图 形 处 理 器 相关 带 所 需 的 硬件 直接 采购 ， 不 需要 重新 开发 ; 而 对 于 软件 部 分 ， 针 对 不 同 图 形 处 
理 器 以 及 不 同 参数 的 情况 ， 只 需 对 程序 作 适 当 优 化 或 者 对 相应 参数 做 修改 即 可 。 

此 外 ， 图 形 处 理 器 相关 吉 相 对 于 传统 方案 的 相关 融 来 说 ， 部 署 也 很 简单 。 只 需要 将 几 人 台 服 务 需 通 
过 网 络 交换 机 组 建 一 个 集群 ， 而 传统 方案 的 相关 器 则 不 然 ， 由 于 一 台 机 器 的 计算 能 力 有 限 ， 所 以 一 般 
情况 下 需 多 台 机 器 ， 而 每 两 台 机 顺 之 间 需 要 通过 连 线 进行 数据 交换 ， 过 程 极其 繁杂 。 


4 讨 论 


该 图 形 处 理 器 相关 天 较 之 传统 方案 的 基于 现场 可 编程 门 阵列 的 相关 需 ， 具 有 开发 周期 得、 可 扩展 
性 强 、 部 署 简单 等 诸多 优势 。 
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图 7 GTX690 在 不 同 STATION ( Z4 C) 时 的 计算 性 能 曲线 图 (a) 和 数据 传输 速率 曲线 图 (b) 
Fig.7 The calculated performance chart of the GTX690 with different numbers of antennas (a) 


and the data transmission rate (b) 


此 外 ， 在 实验 中 还 测试 了 该 图 形 处 理 器 相关 
器 的 线性 度 。 相 关 融 线性 度 用 于 衡量 一 个 相关 顺 
自身 性 能 的 好 坏 ， 它 表示 相关 品 输 入 信和 号 功率 与 
计算 输出 结果 (换算 成 功率 ) 的 一 个 线性 范围 。 
图 8 是 该 图 形 处 理 咒 集群 相关 融 的 线性 度 。 

从 图 8 可 知 ， 该 相关 顺 线 性 范围 约 在 -12 dBm 
到 6 dBm， 即 输入 信和 号 功率 在 该 范围 内 ， 相 关 咒 
计算 结果 可 靠 。 
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图 8 图 形 处 理 器 集群 相关 器 线性 度 
本 文 基于 图 形 处 理 器 集群 ， 针 对 大 型 射电 干 Fig.8 The linearity of the GPU cluster correlation 


涉 阵 研发 的 一 套 扩展 性 极 强 的 通用 相关 器 并 应 用 于 “天 籁 计划 ”项 目 。 在 前 期 实验 基础 上 ， 研 制 了 可 
处 理 32 路 输入 信号 的 图 形 处 理 器 相关 器 系统 。 首 先 设计 了 一 套 基于 图 形 处 理 器 集群 的 通用 相关 器 ， 
该 相关 器 采用 分 频 分 布 式 计算 模式 ， 结 合 硬件 与 软件 编程 ， 具 备 完 美的 可 拓展 性 ; SRI, NES TOR 
计划 ”一 期 的 相关 需求 ， 包 括 数据 传输 压力 与 数据 计算 量 等 ， 详 细 讨论 了 图 形 处 理 器 相关 器 各 模块 的 
功能 以 及 实现 ; 最后， 对 图 形 处 理 器 相关 器 进行 了 性 能 测试 并 对 其 作 了 简单 的 讨论 。 在 此 前 的 实验 
中 ， 只 是 简单 地 测试 了 单 图形 处 理 器 的 实际 性 能 ， 而 在 本 实验 中 ， 采 用 图 形 处 理 器 集群 ， 实 现 了 “天 
籁 计划 ”一 期 的 数据 的 正确 实时 处 理 。 对 于 项 目 一 期 规模 ，96 个 双 极 化 天 线 ， 该 图 形 处 理 器 集群 相 
关 器 实际 的 计算 性 能 为 33. 6TFLOPS( 约 理论 峰值 性 能 的 46% ) ， 该 规模 的 计算 任务 是 单 图 形 处 理 器 无 
法 完成 的 。 不 过 ， 目 前 该 相关 器 系统 的 峰值 性 能 利用 率 不 高 ， 主 要 原因 是 硬件 采购 针对 规模 为 128 个 
双 极 化 天 线 的 计算 需求 进行 ， 图 形 处 理 器 内 核 函 数 的 性 能 利用 率 太 低 ， 所 以 图 形 处 理 器 集群 的 计算 能 
力 未 达 饱 和 。 

在 后 面 的 研究 工作 中 ， 将 对 该 图 形 处 理 器 集群 相关 器 模型 作 进一步 优化 ， 比 如 优化 图 形 处 理 器 集 
群 中 的 数据 传输 ， 针 对 图 形 处 理 器 集群 优化 内 核 函 数 等 ， 使 其 实际 的 计算 性 能 提升 到 63TFLOPS， 理 
论 峰 值 利用 率 提高 到 70% 左 右 ， 以 便 为 “天 知 计 划 ” 的 后 续 工 作 做 准备 。 
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A Research on the ROACH2-GPU-Cluster-based Correlator 


一 一 The Design and Implementation of an X-engine Module 
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Abstract: As radio interference technology continues to improve, the scale of interferometric array becomes 
larger and larger. Its observation capacity also gradually increases. Yet real-time processing of big data becomes 
problematic. To tackle this kind of problem, this article takes the radio interferometer correlator's need of data 
computing and transmission, and the characteristics of the radio interferometric array signal into consideration 
and develops a set of generic correlator based on GPU cluster for the data processing work of " TianLai" 
project. First of all, considering radio signal's characteristics of correlation calculation, computing tasks are 
assigned to different GPU nodes according to their frequency bands, and the network load on each node is 
properly balanced; then these tasks are completed by the corresponding nodes and the results are sent to the 
storage nodes in real time; finally, the whole system is deployed with reference to the data processing scheme 
of the GPU cluster correlator, and a performance test is carried out based on the first stage requirements of 
"'lianLai" project. According to the results, the node computing performance of the cluster correlator has been 
speeded up: it is around 4696 of the theoretical peak performance. Compared with the traditional correlator, 
the GPU-cluster-based correlator is superior owing to its short development cycle, strong scalability, simple 
deployment and other advantages. 

Key words: Radio interferometer; FX Correlator; GPU Cluster; Real-time data processing; Frequency dividing 
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